home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1997 December / Internet_Info_CD-ROM_Walnut_Creek_December_1997.iso / ietf / urn / urn-archives / urn-ietf.archive.9611 / 000108_owner-urn-ietf _Thu Nov 7 16:15:17 1996.msg < prev    next >
Internet Message Format  |  1997-02-19  |  11KB

  1. Received: (from daemon@localhost) by services.bunyip.com (8.6.10/8.6.9) id QAA03181 for urn-ietf-out; Thu, 7 Nov 1996 16:15:17 -0500
  2. Received: from mocha.bunyip.com (mocha.Bunyip.Com [192.197.208.1]) by services.bunyip.com (8.6.10/8.6.9) with SMTP id QAA03176 for <urn-ietf@services.bunyip.com>; Thu, 7 Nov 1996 16:15:13 -0500
  3. Received: from IG.CS.UTK.EDU by mocha.bunyip.com with SMTP (5.65a/IDA-1.4.2b/CC-Guru-2b)
  4.         id AA25756  (mail destined for urn-ietf@services.bunyip.com); Thu, 7 Nov 96 16:14:43 -0500
  5. Received: from localhost by ig.cs.utk.edu with SMTP (cf v2.11c-UTK)
  6.           id QAA20758; Thu, 7 Nov 1996 16:09:28 -0500 (EST)
  7. Message-Id: <199611072109.QAA20758@ig.cs.utk.edu>
  8. X-Mailer: exmh version 1.6.7 5/3/96
  9. X-Uri: http://www.cs.utk.edu/~moore/
  10. From: Keith Moore <moore@cs.utk.edu>
  11. To: Martin J Duerst <mduerst@ifi.unizh.ch>
  12. Cc: moore@cs.utk.edu, tallen@fsc.fujitsu.com, urn-ietf@bunyip.com
  13. Subject: Re: [URN] I18N does not belong in URNs 
  14. In-Reply-To: Your message of "Thu, 07 Nov 1996 18:15:34 +0100."
  15.              <"josef.ifi..235:07.10.96.17.15.36"@ifi.unizh.ch> 
  16. Mime-Version: 1.0
  17. Content-Type: text/plain; charset=us-ascii
  18. Date: Thu, 07 Nov 1996 16:09:28 -0500
  19. Sender: owner-urn-ietf@services.bunyip.com
  20. Precedence: bulk
  21. Reply-To: Keith Moore <moore@cs.utk.edu>
  22. Errors-To: owner-urn-ietf@bunyip.com
  23.  
  24. > >> So for grandfathering, we have two choices.
  25. > >> 
  26. > >> 1) We interpret it as "direct grandfathering of characters",
  27. > >>     in which case we have to allow a really wide range
  28. > >>     of characters (i.e. ISO 10646).
  29. > >> 2) We interpret it as "indirect grandfathering", in which
  30. > >>     case the digits, or whatever small set, will be
  31. > >>     enough.
  32. > >
  33. > >I suspect there will be some of each.
  34. > I wouldn't mind "some of each", if this means "about the same
  35. > amount for everybody on the world". If it comes to mean "a lot
  36. > for English-speaking, but very little for the rest of the world",
  37. > I would have to strongly disagree.
  38.  
  39. Martin,
  40.  
  41. Please accept that I agree with you here.  I don't want Internet
  42. information access protocols to be significantly biased in favor of
  43. English speakers (or anybody else).
  44.  
  45. I say "please accept" because if you accept that we substantially
  46. agree on the above, it's a lot easier to understand the rest of what
  47. I'm saying.
  48.  
  49. For the case of URNs, I have no problem with the idea that they should
  50. not be friendly to English speakers -- because they really shouldn't
  51. be freindly to anybody, except to be transcribable!
  52.  
  53. On the other hand, we can hardly prohibit some rare and occasional
  54. misuse of URNs such that human-friendly meaning creeps in.  And we've
  55. long since established the need to grandfather in existing name spaces
  56. that have the characteristics of URNs.  Some of those name spaces are
  57. going to have some minimal human-friendliness, some degree of meaning
  58. exposed in the names.  But there won't be much human-friendliness in
  59. any name space that gets grandfathered in, as any naming scheme which
  60. tries to embed lots of meaning in the names will inherently have poor
  61. persistence and thus be unsuitable for URNs.
  62.  
  63. Still, it's a judgement call as to whether a particular name space
  64. fits in URN space.  In making such a judgement, what matters is the
  65. overall characteristics of the name space, not which characters are
  66. and aren't allowed.
  67.  
  68. > >> Choosing ASCII only as for URLs would be very unfair cheating.
  69. > >
  70. > >If the names aren't human meaningful, I don't see what you're
  71. > >complaining about.
  72. > If I were sure the names would not be meaningful, I would not
  73. > have much reason to complain. But the URL example shows that
  74. > restricting people from becomming meaningful is very hard if
  75. > not impossible.
  76.  
  77. A lot of people "publish" things on the web by simply editing files in
  78. a particular directory; the URLs for those files are derived from
  79. their filenames.  We can hardly expect people to assign meaningless
  80. names to files that they edit, and few people (outside the information
  81. sciences world) understand the virtue in using meaningless resource
  82. names.
  83.  
  84. I agree that it may be difficult to get most people to understand that
  85. URNs are not human-friendly names (since it's been difficult to do
  86. even within this WG).  This is part of why I think the URN: prefix is
  87. important (so that URNs are easily distinguished from URLs).  It's
  88. also important to promote early use of the URN: prefix for existing
  89. non-friendly name spaces (so people get used to seeing URN: followed
  90. by gibberish).  Finally, new URN spaces are going to require some
  91. restrictions about how those URNs are defined.  (In both RCDS and the
  92. CNRI handle system, resource names aren't chosen by users -- you ask
  93. the system to create one and it gives it back to you.)  Despite all of
  94. this, I'm sure that a few human-friendly URNs will creep in somewhere.
  95. But what's important is that URNs won't be generally useful as a means
  96. to define human-friendly names -- the case where a URN is
  97. human-friendly will be the odd exception rather than the rule.
  98.  
  99. (I'm reminded of RFC numbers which are generally assigned in sequence,
  100. but occasionally are chosen to be easily remembered -- so RFC XX00 is
  101. often an "assigned numbers" RFC.  My favorite example is RFC 1984.)
  102.  
  103.  
  104. > You may agree with the above point, or you may disagree. But
  105. > either way, ASCII only is unfair. If you think that naming
  106. > schemes, protocols, standards, some review board, or whatever,
  107. > can assure that no meaningful stuff is created, then there
  108. > is no reason to restrict to ASCII. 
  109.  
  110. The working group needs to decide which is more important -- being
  111. able to grandfather in existing URN-like name spaces from everywhere
  112. on the planet, or having all URNs be transcribable by anyone on the
  113. planet.  I could certainly make a case for a subset of ASCII-only
  114. based on the latter consideration.
  115.  
  116. Perhaps the right thing to do is to define a mapping to be used when
  117. grandfathering existing non-ASCII namespaces to URNs, i.e. to encode
  118. the non-ASCII characters as UTF-8 and then encode each octet not
  119. printable in ASCII using %XX notation.  That way, people could still
  120. type in resource names like they're accustomed to doing, but the
  121. program they type them in to would convert them to canonical URN
  122. format (by prepending URN:namespace: and doing the UTF-8 and %XX
  123. encoding).  For purposes of resolution, URNs would always be
  124. transmitted in canonical format, but programs could decode the %XX and
  125. UTF-8 for the purposes of display to humans.
  126.  
  127. > One should assume that Japanese, Russians, Chinese, or whoever, can
  128. > be as disciplined, or as tighly controlled, as the English-speaking
  129. > part of the world. On the other hand, if you think that namespaces
  130. > will get meaningful because of people's nature, and you think it is
  131. > a bad thing that has to be avoided, there is no other choice but to
  132. > limit ourselves to the decimal digits and maybe two or three other
  133. > characters.
  134.  
  135. We can discourage putting human-friendly names in URNs by the methods
  136. I mentioned above.  Also, since URI resolution will work for either
  137. URNs or URLs, there will be no reason to insist that a name be in URN
  138. space just so it can have resolution.  So the only people who will
  139. assign URNs will be those who really want long-term persistent and
  140. ugly resource names.  (At least this is what I hope will happen.)
  141.  
  142. > But there can be a great deal of human-friendliness,
  143. > without any need for ambiguity. URLs such as http://www.ibm.com
  144. > or http://www.icrc.org are examples.  My brother, who works at ICRC in
  145. > Geneva, recently called me. Before he was able to tell me how I could
  146. > reach him by email, I had the ICRC home page on my browser, and had
  147. > found the generic email address explanations, and had sent him a mail.
  148.  
  149. There's probably more than one organization in the world named ICRC.
  150. The one your brother works for got ICRC.COM first, but the name is
  151. still ambiguous.  You could have as easily found the a different ICRC
  152. than the one you were looking for.
  153.  
  154. (I keep getting tripped up when I visit the web page of Global
  155. Business Network -- which is www.gbn.ORG.  www.GBN.COM is somebody
  156. else.)
  157.  
  158. This is only going to get worse as more companies get on the Internet.
  159.  
  160. > If it can be that human-friendly, and that unambiguous, I don't know why
  161. > I should go to a search service to find the ICRC. And I don't know
  162. > why people that use other scripts should go though a serach service,
  163. > while English speaking users don't have to do so.
  164.  
  165. All names are unambiguous only within a limited context.  When the net
  166. was small, the context was inherently limited, so it didn't cause a
  167. problem to have only one host for any given name.  But now that the
  168. net is much larger, it is a big problem.  
  169.  
  170. The whole huge mess over ownership of domain names, the InterNIC's
  171. capriciousness in deciding who gets what domain within .COM, and all
  172. of the hair-brained proposals to add tons of vanity-plate top-level
  173. domains -- ALL of this is caused by the lack of support for
  174. human-friendly names in the Internet infrastructure, and the resulting
  175. misuse of DNS to do a job it wasn't designed to do.  We're not going
  176. to misuse URNs in the same way.
  177.  
  178.  
  179. > >> And I don't want to have to search through long lists
  180. > >> of possible answers just because I use Japanese, whereas
  181. > >> I will get one immediate answer for English.
  182. > >
  183. > >The point is that you will often get multiple answers for English.
  184. > >English names are no more precise than names in other languages.
  185. > No, but English can be used in URLs, and I get an unambigous
  186. > result if there is one, in due time. In Japanese, even if the
  187. > result would be unambiguous, I currently can't get it fast and
  188. > easily.
  189.  
  190. Which is better - an ambiguous result which is usually correct, or an
  191. unambiguous result which is often incorrect?
  192.  
  193. The number of names you get back from a search of a user-friendly name
  194. is related to how ambiguous the name is.  If the name you give is
  195. relatively unambiguous, you'll only get a few names back.  "Kodak" (a
  196. name explicitly chosen to be globally unique) will give you relatively
  197. few hits, while "Acme" (a very common brand name) will give you far more.  
  198.  
  199. Part of this is because you'll already be restricting the context of
  200. the search -- if you're looking for the name of a business
  201. organization, you'll go to a service that matches user-friendly names
  202. against names of businesses.  If you're looking for a person's name,
  203. you'll use a different service.
  204.  
  205. Keith
  206.  
  207.  
  208.  
  209.